
NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。
利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。
解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。
专注金融领域的AI Agent平台Interface.ai宣布完成3000万美元首次融资,由Avataar Venture Partners领投。
有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。
近日,智谱在公众号陆续放出电脑版本与手机版本的AI Agent实操视频:
2024 年是 AI Agent 的发展元年,多位科技巨头曾在公开演讲中表示 AI Agent 是 AI 应用的重要落地方向。
在对标OpenAI之路上,智谱AI又近了一步。 今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。
这两天,Claude 3.5 Sonnet升级版刷爆了朋友圈,满屏都是:它能像人一样操作电脑。 大语言模型(Large Language Model,LLM)能够像人一样操作电脑这件事,看起来蛮炸裂的,但在AI Agent圈子里早已经见多不怪了。
几个工程师、一个星期,就能做一个AI Agent应用了。 效果be like—— 能理解用户复杂长命令,推荐符合要求的奶茶店。
最大的AI机会存在于企业、政府以及一些令人兴奋的新公司中。数以百计的Google Cloud客户已经在他们的业务和全球范围内采用了AI Agent和生成式AI解决方案——许多人看到了明显的投资回报。本文提供了185家行业领导者如何在今天利用AI的快照。